Q-Learning con arrepentimiento fino basado en brechas Nuevos algoritmos UCB y AMB mejoran el arrepentimiento fino dependiente de brecha en Q-Learning, superando limitaciones previas en MDP tabulares. 2026-06-16 · 2 min